语言随着时间的流逝而演变,单词含义会发生相应的变化。在社交媒体中尤其如此,因为它的动态性质会导致语义转移的速度更快,这使得NLP模型在处理新内容和趋势方面具有挑战性。但是,专门解决这些社交平台动态性质的数据集和模型的数量很少。为了弥合这一差距,我们提出了Tempowic,这是一种新的基准,尤其是旨在加快基于社交媒体的含义转变的研究。我们的结果表明,即使对于最近发行的专门从事社交媒体的语言模型,Tempowic是一个具有挑战性的基准。
translated by 谷歌翻译
The automated synthesis of correct-by-construction Boolean functions from logical specifications is known as the Boolean Functional Synthesis (BFS) problem. BFS has many application areas that range from software engineering to circuit design. In this paper, we introduce a tool BNSynth, that is the first to solve the BFS problem under a given bound on the solution space. Bounding the solution space induces the synthesis of smaller functions that benefit resource constrained areas such as circuit design. BNSynth uses a counter-example guided, neural approach to solve the bounded BFS problem. Initial results show promise in synthesizing smaller solutions; we observe at least \textbf{3.2X} (and up to \textbf{24X}) improvement in the reduction of solution size on average, as compared to state of the art tools on our benchmarks. BNSynth is available on GitHub under an open source license.
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
生物数据和知识库越来越依赖语义Web技术以及使用知识图表进行数据集成,检索和联合查询。我们提出了一种用于自动学习生物测定的解决方案。我们的解决方案使自动化学的问题与分类与聚类并置,其中两种方法在方法复杂度频谱的相对端。在特征上建模我们的问题,我们发现聚类解决方案显着优于最先进的神经网络的最先进的分类方法。这种新颖的贡献基于两个因素:1)在数据优于具有复杂语义建模的替代方法之后密切建模的学习目标;2)自动学习生物测定达到近83%的高性能F1,这对我们的知识是首次报告的任务标准化评估提供了强大的基准模型。
translated by 谷歌翻译
在机器学习中,一个极大的兴趣问题是了解哪些示例对于模型进行分类是有挑战性的。确定非典型示例可确保模型的安全部署,隔离需要进一步检查的样本,并为模型行为提供解释性。在这项工作中,我们提出梯度(VOG)的差异为有价值和有效的度量,以通过难度对数据进行排名,并浮出水面最具挑战性的人类审计示例的可行子集。我们表明,对于模型而言,具有较高VOG分数的数据点要在损坏或记忆的示例上学习和过度索引。此外,将评估限制为具有最低VOG的测试集实例,可以改善模型的泛化性能。最后,我们证明VOG是分布外检测的有价值和有效的排名。
translated by 谷歌翻译